现在,合成视觉媒体发电和操纵的加速增长已经达到了引起重大关注并对社会造成巨大恐吓的地步。当务之急需要自动检测网络涉及虚假数字内容,并避免危险人造信息的传播以应对这种威胁。在本文中,我们利用和比较了两种手工制作的功能(Sift和Hog)以及两种深层特征(Xpection和CNN+RNN),以进行深层捕获检测任务。当训练集和测试集之间存在不匹配时,我们还会检查这些功能的性能。评估是对著名的FaceForensics ++数据集进行的,该数据集包含四个子数据集,深盘,face2face,faceswap和neuralTextures。最好的结果来自Xception,当训练和测试集都来自同一子数据库时,精度可能会超过99 \%。相比之下,当训练集不匹配测试集时,结果急剧下降。这种现象揭示了创建通用深击检测系统的挑战。
translated by 谷歌翻译
Compliance in actuation has been exploited to generate highly dynamic maneuvers such as throwing that take advantage of the potential energy stored in joint springs. However, the energy storage and release could not be well-timed yet. On the contrary, for multi-link systems, the natural system dynamics might even work against the actual goal. With the introduction of variable stiffness actuators, this problem has been partially addressed. With a suitable optimal control strategy, the approximate decoupling of the motor from the link can be achieved to maximize the energy transfer into the distal link prior to launch. However, such continuous stiffness variation is complex and typically leads to oscillatory swing-up motions instead of clear launch sequences. To circumvent this issue, we investigate decoupling for speed maximization with a dedicated novel actuator concept denoted Bi-Stiffness Actuation. With this, it is possible to fully decouple the link from the joint mechanism by a switch-and-hold clutch and simultaneously keep the elastic energy stored. We show that with this novel paradigm, it is not only possible to reach the same optimal performance as with power-equivalent variable stiffness actuation, but even directly control the energy transfer timing. This is a major step forward compared to previous optimal control approaches, which rely on optimizing the full time-series control input.
translated by 谷歌翻译
Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such zero-shot performance of CLIP-based models does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). We investigate why this is the case, and report an interesting phenomenon of CLIP, which we call the Concept Association Bias (CAB), as a potential cause of the difficulty of applying CLIP to VQA and similar tasks. CAB is especially apparent when two concepts are present in the given image while a text prompt only contains a single concept. In such a case, we find that CLIP tends to treat input as a bag of concepts and attempts to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. For example, when asked for the color of a lemon in an image, CLIP predicts ``purple'' if the image contains a lemon and an eggplant. We demonstrate the Concept Association Bias of CLIP by showing that CLIP's zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. lemon) and an attribute (e.g. its color). On the other hand, when the association between object and attribute is weak, we do not see this phenomenon. Furthermore, we show that CAB is significantly mitigated when we enable CLIP to learn deeper structure across image and text embeddings by adding an additional Transformer on top of CLIP and fine-tuning it on VQA. We find that across such fine-tuned variants of CLIP, the strength of CAB in a model predicts how well it performs on VQA.
translated by 谷歌翻译
Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.
translated by 谷歌翻译
由于交通的固有复杂性和不确定性,自主驾驶决策是一项具有挑战性的任务。例如,相邻的车辆可能随时改变其车道或超越,以通过慢速车辆或帮助交通流量。预期周围车辆的意图,估算其未来状态并将其整合到自动化车辆的决策过程中,可以提高复杂驾驶场景中自动驾驶的可靠性。本文提出了一种基于预测的深入强化学习(PDRL)决策模型,该模型在公路驾驶决策过程中考虑了周围车辆的操纵意图。该模型是使用真实流量数据训练的,并通过模拟平台在各种交通条件下进行了测试。结果表明,与深入的增强学习(DRL)模型相比,提出的PDRL模型通过减少碰撞数量来改善决策绩效,从而导致更安全的驾驶。
translated by 谷歌翻译
现代机器学习模型使用大型数据集使用越来越多的参数(GPT-3参数1750亿参数),以获得更好的性能。更大的是常态。光学计算已被恢复为通过执行线性操作的同时降低电力的光学加速器的大规模计算的潜在解决方案。但是,要用光实现有效的计算,在光学上而不是电子上创建和控制非线性仍然是一个挑战。这项研究探讨了一种储层计算方法(RC)方法,通过该方法,在绝缘体上的Linbo3中的14毫米长的几种模式波导被用作复杂的非线性光学处理器。数据集在飞秒脉冲的频谱上进行数字编码,然后在波导中启动。输出频谱非线性取决于输入。我们通过实验表明,与非转换数据相比,使用波导的输出谱提高了几个数据库的分类精度,使用来自波导的输出频谱具有784个参数的简单数字线性分类器,约为10 $ \%$。相比之下,必须具有40000个参数的深数字神经网络(NN)才能达到相同的准确性。将参数的数量减少$ \ sim $ 50,这说明了紧凑的光RC方法可以与深数字NN一起执行。
translated by 谷歌翻译
人工智能(AI)模型的黑框性质不允许用户理解和有时信任该模型创建的输出。在AI应用程序中,不仅结果,而且结果的决策路径至关重要,此类Black-Box AI模型还不够。可解释的人工智能(XAI)解决了此问题,并定义了用户可解释的一组AI模型。最近,有几种XAI模型是通过在医疗保健,军事,能源,金融和工业领域等各个应用领域的黑盒模型缺乏可解释性和解释性来解决有关的问题。尽管XAI的概念最近引起了广泛关注,但它与物联网域的集成尚未完全定义。在本文中,我们在物联网域范围内使用XAI模型对最近的研究进行了深入和系统的综述。我们根据其方法和应用领域对研究进行分类。此外,我们旨在专注于具有挑战性的问题和开放问题,并为未来的方向指导开发人员和研究人员进行未来的未来调查。
translated by 谷歌翻译
我们提出了一种从一组输入输出对中学习的新算法。我们的算法专为输入变量和输出变量与输出变量之间的关系而呈现出跨预测器空间的异构行为的群体设计。该算法从生成子集开始,该子集集中在输入空间中的随机点。然后培训每个子集的本地预测器。然后,这些预测变量以一种新的方式组合以产生整体预测因子。由于其与堆叠回归的方法的相似,我们称之为“使用子集堆叠”或更少学习“。我们将测试性能与在多个数据集上的最先进的方法中进行比较。我们的比较表明,较少是一种竞争的监督学习方法。此外,我们观察到,在计算时间方面较少也有效,并且允许直接并行实现。
translated by 谷歌翻译
外部磁场可用于远程控制小尺寸的机器人,使其具有多样化的生物医学和工程应用的候选人。我们表明,我们的磁动毫罗罗布特是高度敏捷的,并且可以执行各种机车任务,例如枢轴行走和在水平面翻滚。在这里,我们专注于控制枢轴行走模式中该毫无米罗罗布特的运动效果。开发了系统的数学模型,派生了运动模型。还研究了机器人运动中扫描和倾斜角度的作用。我们提出了两个控制器来调节枢轴步行者的步态。第一个是比例几何控制器,它决定了Millobot应该使用的正确枢轴点。然后,它基于毫无槌和参考轨迹的中心之间的误差按比例地调节角速度。第二控制器基于梯度下降优化技术,其表示控制动作作为优化问题。这些控制算法使得MilliRobot能够在跟踪所需的轨迹时产生稳定的步态。我们进行一组不同的实验和模拟运行,以确定所提出的控制器在跟踪误差方面的不同扫描和倾斜角度的有效性。这两个控制器表现出适当的性能,但观察到基于梯度下降基于的控制器产生更快的收敛时间,更小的跟踪误差和更少的步数。最后,我们对扫描角度,倾斜角度和步进时间对跟踪误差的影响进行了广泛的实验参数分析。正如我们所预期的那样,基于优化的控制器优于基于几何的控制器。
translated by 谷歌翻译
小型机器人提供对更大的空间的访问空间。这种类型的访问在药物递送,环境检测和小型样品的集合之类的应用中至关重要。然而,有一些任务是不可能使用包括组装和制造的一个机器人,以小规模,操纵微型和纳米物体,以及基于机器人的小规模材料的结构。解决此问题的解决方案是使用一组机器人作为系统。因此,我们专注于可以使用一组小规模机器人实现的任务。这些机器人通常由于其尺寸限制而外部驱动。然而,一个人面临使用单个全局输入控制一组机器人的挑战。我们提出了一种控制算法,以在预定义位置定位蜂拥的各个成员。单个控制输入适用于系统,并以相同的方向移动所有机器人。我们还通过使用不同的长度机器人添加另一个控制模态。电磁线圈系统施加外力并转向毫流。这个毫米可以以各种运动模式移动,如枢轴行走和翻滚。我们提出了两个毫无罗罗波茨的新设计。在第一设计中,磁体放置在主体的中心以减小磁吸引力。在第二种设计中,毫米的长度相同,具有两条额外的腿作为枢轴点。这样,我们在设计中变化分离时可以利用枢轴行走模式的变速,同时保持翻滚模式的速度恒定。本文介绍了一种具有不同长度的N毫米的位置控制的一般算法,使它们从给定的初始位置移动到最终所需位置。该方法基于选择完全可控的领导者。仿真和硬件实验验证了这些结果。
translated by 谷歌翻译